Dr. rer. nat. Noemi Castelletti, Elisabeth Lucke
PD Dr. Fabian Scheipl, Daniel Schlichting
2025-01-20
Überblick und Gruppierungen
Datenanalyse
2.1 HIV
2.2 Bildung
2.3 Tabakkonsum
2.4 Landwirtschaft
Zusammenfassung und Ausblick
World Bank Datensatz
Erhebungsart: Longitudinal
25 Länder untersucht
18 verschiedene Indikatoren
Jährliche Messungen von 2000 bis 2021
durchschnittliche Ausprägung über die Jahre
verteilt auf Quantile
| Quantil | Q1 | Q2 | Q3 | Q4 | Q5 |
|---|---|---|---|---|---|
| Prävalenz Alkoholkonsum | Sehr gering | Gering | Mittel | Groß | Sehr groß |
| Anteil Grundbildung | Sehr gering | Gering | Mittel | Groß | Sehr groß |
| Bevölkerungsdichte | - | Niedrig | Mittel | Hoch | - |
| Einwohnerzahl | - | Gering | Mittel | Hoch | - |
| Einkommensniveau | - | Gering | Mittel | Hoch | - |
| Prävalenz Tabakkonsum | Sehr gering | Gering | Mittel | Groß | Sehr groß |
| Landesfläche | Sehr klein | Klein | Mittel | Groß | Sehr groß |
Wie verhält sich die HIV-Prävalenz in der Bevölkerung zwischen 15 und 49 Jahren zum gesamten Alkoholkonsum pro Kopf?
Haben Länder mit einem höheren Prozentsatz der Erwerbsbevölkerung mit Grundbildung eine niedrigere HIV-Prävalenz unter den 15- bis 49-Jährigen?
Haben Länder mit höherer Staatsverschuldung einen geringeren Anteil an Erwerbspersonen mit Grundbildung?
Führen mehr Erwerbstätige mit Grundbildung zu einer niedrigeren Schüler-Lehrer-Relation?
Welche Auswirkungen haben niedrige Schüler-Lehrer-Relationen auf die Bildungsqualität?
In welchem Zusammenhang steht das Bruttoinlandsprodukt pro Kopf mit der Prävalenz des aktuellen Tabakkonsums unter Erwachsenen?
Gibt es einen Zusammenhang zwischen dem Anteil der landwirtschaftlichen Nutzfläche und den CO2 Emissionen pro Kopf eines Landes?
Welcher Bedeutung fällt hierbei die Landesfläche eines Landes zu?
HIV und Alkoholprävalenz und Grundbildung: jeweils eher positiver Zusammenhang
Grundbildung und Staatsverschuldung und Schüler-Lehrer-Relation: jeweils eher positiver Zusammenhang
Tabakkonsumprävalenz und BIP: eher positiver Zusammenhang
Landwirtschaftliche Nutzfläche und CO2 Emissionen: eher positiver Zusammenhang
Mögliche Informationen zu anderen Indikatoren, die weitere Erkenntnisse liefern könnten:
zu urbaner, forstwirtschaftlicher Fläche sowie Wasserfläche [% oder km2]
zur Quantifizierung von Bildungsqualität
| Jahr | KLD (Breite = 2) | KLD (Breite = 3) | KLD (Breite = 4) | KLD (Breite = 5) |
|---|---|---|---|---|
| 2000 | 2.200456 | 1.3355127 | 0.7760908 | 0.4404161 |
| 2005 | 1.586584 | 0.8072496 | 0.4215260 | 0.2421420 |
| 2010 | 1.240258 | 0.5280582 | 0.2541619 | 0.1773269 |
| 2015 | 1.320069 | 0.5467187 | 0.2812418 | 0.2232322 |
| 2018 | 1.242548 | 0.5700443 | 0.3211268 | 0.2709994 |
| 2019 | 1.242548 | 0.5700443 | 0.3211268 | 0.2709994 |
| 2020 | 1.229573 | 0.5707539 | 0.3241600 | 0.2755441 |
Ordinary Least Squares (OLS) estimates regression coefficients by minimizing squared residuals:
\[ \min_{\beta} \sum_{i=1}^{n} (y_i - X_i \beta)^2 \]
This method provides BLUE (Best Linear Unbiased Estimators) under the Gauss-Markov theorem, assuming normally distributed residuals. However, in real-world data, violations of this assumption can reduce efficiency, affecting confidence intervals and hypothesis tests.
To mitigate outliers, Robust Linear Models (RLMs) via MASS::rlm() use Iteratively Reweighted Least Squares (IRLS), reducing the influence of extreme values.
The default psi function, psi.huber, applies Huber’s loss function:
\[ L_{\delta}(r) = \begin{cases} \frac{1}{2} r^2 & \text{if } |r| \leq \delta, \\ \delta (|r| - \frac{1}{2} \delta) & \text{if } |r| > \delta. \end{cases} \]
where:
By default, geom_smooth(method = MASS::rlm) displays confidence intervals, but MASS::rlm() does not compute standard errors. Instead, ggplot2 approximates them using the OLS-based formula:
\[ CI = \hat{y} \pm t_{\alpha/2, df} \cdot SE(\hat{y}) \]
where:
The Spearman correlation coefficient measures the monotonic relationship between two variables. Unlike Pearson correlation, which captures only linear relationships, Spearman correlation assesses whether as one variable increases, the other tends to increase or decrease in a consistent order.
\[ \rho = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)} \] where: